pikepdf snippet

pikepdfでPDFを操作するスクリプト

ページコピーするとannotationはコピーされない

annotationsにしおり（PDFの目次）が含まれている

不要なページを削除して保存

この方法だと、しおり（PDFの目次）が調整されず、エラーのあるPDFになってしまう。

code:python

import pikepdf

with pikepdf.open('book-20201213.pdf') as pdf:

del pdf.pages:11 # 先頭の i ~ xi ページを削除

del pdf.pages558: # 不要ページを削除

del pdf.pages496:540 # 不要ページを削除

del pdf.pages:470 # 不要ページを削除

pdf.save(pdf.filename.replace('.', '-chap14-16.')) # 保存

ページを別PDFへ書き出し

しおりを別PDFに持っていかないため、エラーは起きない

code:python

import pikepdf

with pikepdf.open('book-20201213.pdf') as pdf:

new = pikepdf.Pdf.new()

del pdf.pages:11 # 先頭の i ~ xi ページを削除

new.pages.extend(pdf.pages470:496) # 指定ページ間をコピー

new.pages.extend(pdf.pages540:558) # 指定ページ間をコピー

new.save(pdf.filename.replace('.', '-chap14-16.')) # 保存

PDFからテキストを取り出す

We strongly recommend against trying to scrape text from the content stream.

コンテンツストリームからテキストを取り出そうとしないで！

代わりにpdfminer.sixを使っててね